import_data("johnny_depp")
## Loading required package: rvest
## Loading required package: xml2
## 
## Attaching package: 'rvest'
## The following object is masked from 'package:purrr':
## 
##     pluck
## The following object is masked from 'package:readr':
## 
##     guess_encoding
## Warning in rlang::eval_tidy(~as.numeric(gsub("[$|M]", "", BOXOFFICE)),
## <environment>): NAs introduzidos por coerção
filmes = read_imported_data()

Descrição do Ator

Johnny Depp é um ator, músico, produtor de cinema e diretor americano muito conhecido por interpretar grandes personangens como o Capitão Jack Sparrow na franquia Piratas do Caribe, Edward Scissorhands do filme Edward mãos de tesoura, além de interpretar outros personagens famosos, como o bruxo das trevas Gellert Grindelwald em Animais Fantásticos e Onde Habitam, de 2016, e Animais Fantásticos: Os Crimes de Grindelwald de 2018, Willy Wonka em A Fantástica Fábrica de Chocolate e o Chapeleiro Maluco nos filmes Alice no País das Maravilhas e Alice através do Espelho.

Seus filmes de maior bilheteria foram a série Piratas do Caribe com um total de 4.524 bilhões de dólares, seguido pela franquia Animais Fantásticos e Onde Habitam com 1.457 bilhão, Alice no País das Maravilhas com 1.323 bilhão em receita global.Trata-se de um ator renomadisímo de Hollywood, com mais de 250 indicações a prêmios por seu trabalho, incluindo Oscars, Globo de Ouro e Screen Actors Guild.

Depp é um dos maiores e mais bem sucedidos atores de sua geração, juntamente com Brad Pitt, Will Smith, Robert Downey Jr., Tom Cruise e Leonardo DiCaprio. o artista conta com uma imensidão de filmes em seu currículo. Aqui neste post trabalhamos com uma amostra de 29 filmes coletados pelo Rotten Tomatoes.

Bilheteria por ano

Podemos perceber que a maioria dos filmes alcançaram uma bilheteria até 200 milhoes de dólares. Mas não foram poucos os filmes que despontaram em bilheteria, a frânquia de Piratas do caribe, rendeu uma boa grana ao Capitão Jack Sparrow.

p = filmes %>% 
    ggplot(aes(x = ano, y = bilheteria, label=filme)) + 
    geom_point(color = paleta[2], size = 4)

ggplotly(p)

O gráfico abaixo reforça a ideia de que a maioria dos filmes estrelados por Johnny Depp não obteve tanto sucesso quanto a frânquia de Piratas do caribe. O único filme que chegou próximo foi, Alice no país das maravilhas. Algo a ser considerado nesta base de dados é que o filme mais recente analisado é de 2017 e que de lá pra cá o Ator ja estrelou em outros grandes filmes que renderam bilheterias estrondosas, como por exemplo: ALICE ATRAVÉS DO ESPELHO e ANIMAIS FANTÁSTICOS E ONDE HABITAM.

filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(binwidth = 15, fill = paleta[4], color = "white")+
    ylab("Quantidade")

E a avaliação geral dos filmes ???

Levando em consideração uma escala de 0-100, 18 dos 29 filmes citados em nossa base de dados tiveram uma avaliação positiva (considerando que positivo seria uma avaliação acima de 5). O filme com a melhor avaliação foi Deep Sea, seguido de GOnzo e Rango, que não foram filmes que renderam uma bilheteria muito alta, mas pra quem foi e assistiu, podemos ter certeza que não se arrependeram.

filmes %>% 
    ggplot(aes(x = reorder(filme,avaliacao), y=avaliacao, fill = paleta[4], color = "white")) + 
    geom_point(show.legend = FALSE)+
    coord_flip()+
    labs(x="Filme", y="Avaliação")

filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(binwidth = 10, boundary = 0, fill = paleta[4], color = "white") + 
    geom_rug(size = .5)+
    ylab("Quantidade")

Nem sempre bilheteria é sinônimo de boas avaliações !!

Ao analisarmos o valor apróximado das bilheterias por ano, e compararmos com o valor aproximado das avaliações por ano, podemos perceber que nem sempre uma bilheteria muito alta significa dizer que o filme foi muito bom. Em 2010 a bilheteria dos filmes estrelados por Depp foram altíssimas, nesta época os filmes Alice no país das Maravilhas e O turista eram lançados. Entretanto as avaliaçoes medianas deles não refletiram na bilheteria que tiveram. Uma possível explicação para esta situação é que os fãs da literatura de Alice estavam bastante anciosos para terem a história recontada e atualizada nas telonas do cinema, a ponto de que qualquer deslize seria o suficiente para diminuir a nota de avaliação. Outra pssível justificativa é que talvez o filme tenha sido ruim mesmo. Cabe ao cinelunático julgar.

bilheteria_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(bilheteria_mediana=median(bilheteria))

avaliacao_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(avaliacao_mediana=median(avaliacao))

p = bilheteria_ano %>% 
    ggplot(aes(x=ano, y=bilheteria_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")

p2 = avaliacao_ano %>% 
    ggplot(aes(x=ano, y=avaliacao_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")

filmes %>% 
    filter(ano == 2010) %>%
    select(filme) %>% 
    glimpse()
## Observations: 2
## Variables: 1
## $ filme <chr> "The Tourist", "Alice in Wonderland"
ggplotly(p)
ggplotly(p2)

Como posso agrupar os filmes do Depp em categorias?

m_transformado = filmes %>% 
    mutate(bilheteria_log = as.vector(scale(log10(bilheteria))), 
           avaliacao_scaled = as.vector(scale(avaliacao)))

summary(m_transformado %>% select(bilheteria_log, avaliacao_scaled))
##  bilheteria_log    avaliacao_scaled  
##  Min.   :-2.5870   Min.   :-1.85100  
##  1st Qu.:-0.3505   1st Qu.:-0.96059  
##  Median : 0.1808   Median : 0.05702  
##  Mean   : 0.0000   Mean   : 0.00000  
##  3rd Qu.: 0.5830   3rd Qu.: 0.73543  
##  Max.   : 1.4119   Max.   : 1.49864
plot_clusgap = function(clusgap, title = "Gap Statistic calculation results") {
    require("ggplot2")
    gstab = data.frame(clusgap$Tab, k = 1:nrow(clusgap$Tab))
    p = ggplot(gstab, aes(k, gap)) + geom_line() + geom_point(size = 5)
    p = p + geom_errorbar(aes(ymax = gap + SE.sim, ymin = gap - SE.sim), width = .2)
    p = p + ggtitle(title)
    return(p)
}
gaps <- m_transformado %>% 
    select(bilheteria_log, avaliacao) %>% 
    clusGap(FUN = kmeans, nstart = 20, K.max = 8, B = 200)

plot_clusgap(gaps)

set.seed(12345)
n_clusters = 5

# O agrupamento de fato:
cluster = m_transformado %>% 
    select(bilheteria_log, avaliacao_scaled) %>% 
    kmeans(centers = n_clusters, nstart = 20)

agrupado = cluster %>% 
    augment(m_transformado)

#p = agrupado %>% 
#    ggplot(aes(x = avaliacao_scaled, y = bilheteria_log, color = .cluster))  + 
#    geom_point(size = 3)

p1 = agrupado %>% 
    ggplot(aes(x = avaliacao, y = bilheteria, color = .cluster, label=filme))  + 
    geom_point(size = 3)+
    scale_y_log10()

ggscatter(agrupado, x="avaliacao", y="bilheteria", color=".cluster")+
    stat_chull(aes(fill = .cluster), alpha=0.3, geom="polygon")+
    xlab("Avaliação")+
    ylab("Bilheteria")

ggplotly(p1)